AIエージェントについて調べる by wogikaze

2025/6/8 現在の話

生成AIの誕生によって汎用的なことができるようになった

今まではAIと言えば分類/データの外挿に使っていた

LLMによって

人間が自然言語で命令できるように

コード生成ができるように

VLMによって

人間向けのUIでもAIがある程度操作できるようになった

以前もスクリーンリーダー配慮のあるUIは操作できたbsahd.icon

現在のbrowser useも、画像だけでなくテキスト要素はテキストとして入力してるはず

ので

コーディングエージェント

SlackやGithub上で自然言語で指示して、コードを編集させる

Claude Code Action

GitHub Copilot Coding Agent

Devin.ai

コードエディタ上で指示すると、指示が達成されるまでPDCAを回し続ける

GitHub Copilot Agent

Cursor Composer Agent

Cline

ブラウザを動かして買ったり予約したり

Browser-use

OpenAI Operator

検索して情報をまとめるDeep Research

OpenAI Deep Research

Gemini Deep Research

RAGではなく、目標が達成されるまで情報をRetrievalし続ける

エージェントどうしが通信できるとできることが増えるよね、ということでプロトコルを定義した

MCP

A2A

などが出てきた

これからどうなるか?

自然言語で開発が進むように機能が増えていくwogikaze.icon

コンテキストを適切に与えられるようにプレーンテキストで貯めていく

以下は2024/12の話

出典(記事・note・ブログetc)

Cursor

Cursor Composer Agent

複数ファイルの一括編集

ターミナルコマンドの自動実行

GitHub - masamasa59/ai-agent-papers: Weekly AI Agent News!の論文内容を更新

https://masamasa59.hatenablog.com/entry/weekly-ai-agent-journeyWeekly AI Agent News!から見えたAIエージェントの現在地 - 襖からキリン

ゲームのNPCとして

AIエージェントの評価方法(AIエージェントベンチマーク)

VLMを利用してGUIを直接操作する

現実のシミュレーションのため(LMAgent)

実装のためのフレームワーク(Phidata, OpenAI Swarn, CrewAI, Autogen, LangGraph)

ソフトウェア開発・カスタマーサポート・企業ワークフロー効率化など

応用(プロダクト)と基礎(精度)

過去の経験をメモリから引き出して、計画して、行動して、振り返って、目標を達成したか確認するプロセスはどのエージェントも同じです。

行動が様々なので評価がバラバラ

https://gyazo.com/6d8e320967107378c743717d27e63164

メタファー

基本的には下の画像のフローを行い、他の部分は微々たる差でしかない

https://gyazo.com/406e18576ed7cc2ed70dffc9b4458382

https://www.langchain.com/breakoutagents/perplexityPerplexity

https://masamasa59.hatenablog.com/entry/ai-agent-business-guideAIエージェントビジネスの現状と今後の考察 - 襖からキリン

生成AIエージェントと業務ソフトウェアの結びつきが強くなる

GUIからコンピュータを制御するのはまだ難しい

https://masamasa59.hatenablog.com/entry/business-challenges-for-ai-agents生成AIエージェントが刺さる業務課題を探そう！ - 襖からキリン

https://gyazo.com/a0a97b93c4f79f84432e1a788fe7ec72

タスクの抽象度が高いほど「エージェントらしさ」が活きる

既存のGoogleやOpenAI の既存のエージェントの応用事例はどれもタスクの抽象度が高いです。どんな事例かというと、データ分析、ソフトウェア開発、Webナビゲーション、Web情報検索による質問応答です。

1) 課題はある程度明確だが、答えが一意でない

2) 業務成果物のバリエーションが多く、都度カスタマイズが必要

3) 業務の中に複数ツール・データソースを利用する

7) 複数ステークホルダーがレビュー/承認し合うワークフロー

https://masamasa59.hatenablog.com/entry/2024-best-papers-on-ai-agents2024年生成AIエージェントのおすすめ論文 16選 - 襖からキリン

https://note.com/wandb_jp/n/nf563ea9d3096?sub_rt=share_pbAIエージェントの評価｜Weights & Biases Japan

Compound AIシステムやworkflow

評価指標は大きく以下の4つのカテゴリに分けられ、それぞれの特性と用途を解説します。

精度 (Accuracy) : 最終的なタスク達成度, 個別の機能の精度

システム (System) : システムメトリックは効率性とユーザー体験に関わる指標

エラー (Error) : タスクやツールの実行が正しく完了したかを評価する

実行経路 (Execution Path) : ツールの選択プロセス

https://www.anthropic.com/research/building-effective-agentsBuilding effective agents \ Anthropic

https://note.com/kyutaro15/n/ne88fe2fcf928?sub_rt=share_pbClaudeが提案するエージェント構築：簡単で効果的な設計のベストプラクティス｜Kyutaro

ワークフローとエージェントの違い

ワークフロー

事前に決められた手順をAIが実行する仕組み。たとえば、「①データを取り出す → ②分析する → ③結果をまとめる」といった流れです。

Difyとかこれに近いwogikaze.icon

コードを書いて、順々に処理していくのもこれ

エージェント

柔軟にタスクを解釈し、自らの判断で必要な手順やツールを使い分ける仕組みです。たとえば、「売上を分析して改善策を出して」と依頼したら、データ収集からレポート作成までをAIが判断しながら進めます。

LLMに使うツールなどを選ばせるのがエージェントという認識でよさげ

エージェントのワークフロー

https://gyazo.com/a58847f432a6a9784d0dbd7fc3bd854d

Orchestrator、凄く面白いwogikaze.icon

LLMがタスクを分割し、LLMに仕事を割り振る

https://gyazo.com/e8b0cbed003458bc0fceba7e91d15d28

https://gyazo.com/93357dee7a42101c04ab48df22e4937a

これ強化学習で見た図やなwogikaze.icon

https://github.com/browser-use/browser-usebrowser-use/browser-use

ブラウザを自動操作する

Computer Useよりも精度が良いらしい

https://www.microsoft.com/en-us/research/blog/aiopslab-building-ai-agents-for-autonomous-clouds/AIOpsLab: Building AI agents for autonomous clouds - Microsoft Research

https://github.com/microsoft/AIOpsLabmicrosoft/AIOpsLab

AIエージェントの設計・評価するフレームワーク

https://agent.ai/agentsagent.ai

https://cloud.google.com/blog/products/ai-machine-learning/bringing-ai-agents-to-enterprises-with-google-agentspace?hl=enBringing AI Agents to Enterprises with Google Agentspace

https://xtech.nikkei.com/atcl/nxt/column/18/00001/10073/Googleが「Agentspace」発表、AIエージェントで企業内の定型業務を自動化

https://www.youtube.com/watch?v=kUk6ShVeInI

ところてん / 安野貴博

https://zenn.dev/neoai/articles/fc5e39cffeb4612024年ビッグテックのAI Agent 動向まとめ

https://huyenchip.com/2025/01/07/agents.htmlAgents

https://note.com/dory111111/n/ncab810c5fc21採用AIエージェント「リクルタAI」 - 1年間のプロダクト開発の裏側｜Ryoichi Takahashi │ 株式会社Algomatic Works

OpenAI Operator

OpenAI Deep Research

観覧席

Devin.aiもこの部類かなtakker.icon

ですねwogikaze.icon